支持中文分詞(N-最短路分詞、CRF分詞、索引分詞、用戶自定義詞典、詞性標注),命名實體識別(中國人名、音譯人名、日本人名、地名、實體機構名識別),關鍵詞提取,自動摘要,短語提取,拼音轉換,簡繁轉換, ...
支持中文分詞(N-最短路分詞、CRF分詞、索引分詞、用戶自定義詞典、詞性標注),命名實體識別(中國人名、音譯人名、日本人名、地名、實體機構名識別),關鍵詞提取,自動摘要,短語提取,拼音轉換,簡繁轉換, ...
統計相關系數簡介 由於使用的統計相關系數比較頻繁,所以這里就利用幾篇文章簡單介紹一下這些系數。 相關系數:考察兩個事物(在數據里我們稱之為變量)之間的相關程度。 如果有兩 ...
word2vec是一個將單詞轉換成向量形式的工具。可以把對文本內容的處理簡化為向量空間中的向量運算,計算出向量空間上的相似度,來表示文本語義上的相似度。 一、理論概述 (主要來源於http://l ...
Softmax回歸 1. softmax回歸模型 softmax回歸模型是logistic回歸模型在多分類問題上的擴展(logistic回歸解決的是二分類問題)。 ...
摘要:為解決中文搜索的問題,最開始使用PHP版開源的SCWS,但是處理人名和地名時,會出現截斷人名地名出現錯誤。開始使用NLPIR分詞,在分詞准確性上效果要比SCWS好。本文介紹如何在windows系 ...
LibSVM使用指南 一、 SVM簡介 在進行下面的內容時我們認為你已經具備了數據挖掘的基礎知識。 SVM是新近出現的強大的數據挖掘工具,它在文本分類、手寫文字識別、圖像分類、生物序列分 ...
引入 評價是現代社會各領域的一項經常性的工作,是科學做出管理決策的重要依據。隨着人們研究領域的不斷擴大,所面臨的評價對象日趨復雜,如果僅依據單一指標對事物進行評價往往不盡合理,必須全面地從整體的角度 ...
轉自:編譯哈工大語言技術平台雲LTP(C++)源碼及LTP4J(Java)源碼 JDK:java version “1.8.0_31”Java(TM) SE Runtime Environment ...
0. 詞向量是什么 自然語言理解的問題要轉化為機器學習的問題,第一步肯定是要找一種方法把這些符號數學化。 NLP 中最直觀,也是到目前為止最常用的詞表示方法是 One-hot Represen ...